07_Categorical data analysis

Author

Yeong Chan Lee

Published

April 8, 2023

7-1. \(\chi^2\) test

범주형 자료 분석에 쓰이는 카이스퀘어 검정을 해보기위해 licorice_gargle 데이터셋을 불러와 보겠습니다. (Ruetzler et al. 2013)

library(medicaldata)
head(licorice_gargle)
  preOp_gender preOp_asa preOp_calcBMI preOp_age preOp_mallampati preOp_smoking
1            0         3         32.98        67                2             1
2            0         2         23.66        76                2             2
3            0         2         26.83        58                2             1
4            0         2         28.39        59                2             1
5            0         1         30.45        73                1             2
6            0         2         35.49        61                3             1
  preOp_pain treat intraOp_surgerySize extubation_cough pacu30min_cough
1          0     1                   2                0               0
2          0     1                   1                0               0
3          0     1                   2                0               0
4          0     1                   3                0               0
5          0     1                   2                0               0
6          0     1                   3                0               0
  pacu30min_throatPain pacu30min_swallowPain pacu90min_cough
1                    0                     0               0
2                    0                     0               0
3                    0                     0               0
4                    0                     0               0
5                    0                     0               0
6                    0                     0               0
  pacu90min_throatPain postOp4hour_cough postOp4hour_throatPain pod1am_cough
1                    0                 0                      0            0
2                    0                 0                      0            0
3                    0                 0                      0            0
4                    0                 0                      0            0
5                    0                 0                      0            0
6                    0                 0                      0            0
  pod1am_throatPain
1                 0
2                 0
3                 0
4                 0
5                 0
6                 0

treat 변수에서 0이 licorice 그룹, 1이 sugar-water 그룹입니다. 이 연구에서 primary outcome은 throat pain여부입니다. _throatPain 변수에는 0(no pain)부터 10(worst pain)까지 리커트 척도로 측정되어 있습니다. 이때 0 이상의 값은 pain이 있는 것으로 보겠습니다.

licorice_gargle$treat2 <- ifelse(licorice_gargle$treat == 1, "0Licorice", "1Sugar-water")


licorice_gargle$pacu30min_throatPain2 <- ifelse(licorice_gargle$pacu30min_throatPain == 0, 0, 1)
licorice_gargle$pacu90min_throatPain2 <- ifelse(licorice_gargle$pacu90min_throatPain == 0, 0, 1)
licorice_gargle$postOp4hour_throatPain2 <- ifelse(licorice_gargle$postOp4hour_throatPain == 0, 0, 1)

chisq.test(licorice_gargle$treat2, licorice_gargle$pacu30min_throatPain2)

    Pearson's Chi-squared test with Yates' continuity correction

data:  licorice_gargle$treat2 and licorice_gargle$pacu30min_throatPain2
X-squared = 8.0033, df = 1, p-value = 0.004669
chisq.test(licorice_gargle$treat2, licorice_gargle$pacu90min_throatPain2)

    Pearson's Chi-squared test with Yates' continuity correction

data:  licorice_gargle$treat2 and licorice_gargle$pacu90min_throatPain2
X-squared = 19.461, df = 1, p-value = 1.027e-05
chisq.test(licorice_gargle$treat2, licorice_gargle$postOp4hour_throatPain2)

    Pearson's Chi-squared test with Yates' continuity correction

data:  licorice_gargle$treat2 and licorice_gargle$postOp4hour_throatPain2
X-squared = 14.582, df = 1, p-value = 0.0001342

결과와 비교해봅시다. 여기서 유의수준은 0.0224/3 = 0.0075가 됩니다. 각 검정들이 귀무가설을 기각할 수 있나요?

이번엔 secondary outcome 중 하나인 cough로 두 그룹을 비교해보겠습니다.

A part of Table 3

licorice_gargle$pacu30min_cough2 <- ifelse(licorice_gargle$pacu30min_cough == 0, 0, 1)

table(licorice_gargle$treat2, licorice_gargle$pacu30min_cough2)
              
                0  1
  0Licorice    99 18
  1Sugar-water 88 28
chisq.test(licorice_gargle$treat2, licorice_gargle$pacu30min_cough2)

    Pearson's Chi-squared test with Yates' continuity correction

data:  licorice_gargle$treat2 and licorice_gargle$pacu30min_cough2
X-squared = 2.2914, df = 1, p-value = 0.1301

다른 결과도 직접 비교해보세요.

7-2. Fisher’s exact test

Fisher’s exact test는 특정한 셀의 빈도수가 작을 경우에 쓰입니다(보통 5개 미만). 또는 특정한 셀에서의 빈도수가 너무 커서 데이터의 균형이 안맞을 때도 쓰입니다. R에서는 함수만 다를 뿐 chi-square test와 똑같습니다. 예를 들어, PACU 30분 째의 throat pain으로 비교하는데 pain에 대한 정의를 리커트 점수가 3 이상인 경우 pain인 것으로 정의해봅시다.

licorice_gargle$pacu30min_throatPain3 <- ifelse(licorice_gargle$pacu30min_throatPain < 3, 0, 1)

table(licorice_gargle$treat2, licorice_gargle$pacu30min_throatPain3)
              
                 0   1
  0Licorice    114   3
  1Sugar-water  93  23
fisher.test(licorice_gargle$treat2, licorice_gargle$pacu30min_throatPain3)

    Fisher's Exact Test for Count Data

data:  licorice_gargle$treat2 and licorice_gargle$pacu30min_throatPain3
p-value = 1.768e-05
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  2.69190 49.99912
sample estimates:
odds ratio 
  9.321568 

pacu90min_throatPain 변수에도 동일하게 적용해보세요.

이번엔 차 마시는 여인 예제로 검정을 해보겠습니다.

tea_woman <- matrix(c(4, 0, 0, 4), nrow = 2)
fisher.test(tea_woman, alternative = "greater")

    Fisher's Exact Test for Count Data

data:  tea_woman
p-value = 0.01429
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
 2.003768      Inf
sample estimates:
odds ratio 
       Inf 

7-3. McNemar test

McNemar 검정은 범주형 자료의 쌍(pair)을 분석하는 데 사용되는 통계적 검정 방법입니다. 아래 예시를 통해 McNemar test를 해보겠습니다.

Outcome of treatment B patient
Outcome of treatment A patient Survive for 5 years Die within 5 years Total
Survive for 5 years 510 16 526
Die within 5 years 5 90 95
Total 515 106 621
trt <- matrix(c(510, 5, 16, 90), nrow = 2)
mcnemar.test(trt)

    McNemar's Chi-squared test with continuity correction

data:  trt
McNemar's chi-squared = 4.7619, df = 1, p-value = 0.0291

어떻게 결론을 내릴 수 있습니까?

7-4 데이터의 저장과 불러오기

기존 데이터에서 몇가지 전처리를 통해 새로운 변수들을 만들었습니다. 나중에도 재사용할 수 있도록 파일을 저장해봅시다.

#getwd()
library(data.table)

fwrite(licorice_gargle, "licorice_gargle2.csv")

반대로 불러오기는 fread() 함수를 사용합니다.

lico <- fread("licorice_gargle2.csv", data.table = FALSE)

References

Ruetzler, Kurt, Michael Fleck, Sabine Nabecker, Kristina Pinter, Gordian Landskron, Andrea Lassnigg, Jing You, and Daniel I. Sessler. 2013. “A Randomized, Double-Blind Comparison of Licorice Versus Sugar-Water Gargle for Prevention of Postoperative Sore Throat and Postextubation Coughing.” Anesthesia & Analgesia 117 (3): 614–21. https://doi.org/10.1213/ane.0b013e318299a650.